机器学习丨从何开始学习数据科学?小哥用亲身经历告诉你如何少走弯路
本文来源于medium,转载自公众号大数据文摘。
我知道从这里开始可能很奇怪,许多人希望从最沉重的基础和数学视频开始,以充分了解每种ML模型背后发生的事情。但是从我的角度出发,从实用和具体的角度出发有助于更好地了解整个情况。
此外,每门小课程需要只大约4个小时才能完成,因此预先设定达到这些小目标会增加额外的动力。Python
如果你熟悉Python,则可以跳过此部分。在这里,你将学习基本的Python概念,这些概念将帮助你开始学习数据科学。虽然关于Python的很多事情对你来说仍然是个谜,但是随着我们的前进,你将通过实践学习它。
价格:免费链接:https://www.kaggle.com/learn/python
Pandas
Pandas将为我们提供开始使用Python处理数据的技能。我认为4小时的微课程和实际示例足以使人们对可以做的事情有一个概念。
价格:免费链接:https://www.kaggle.com/learn/pandas
数据可视化
数据可视化也许是最被低估的技能之一,但它也是最重要的技能之一。它将使你完全了解要使用的数据。
价格:免费链接:https://www.kaggle.com/learn/data-visualization
机器学习入门
令人兴奋的部分开始了!你将学习基本的概念,可以开始训练机器学习模型。这些在未来之路上至关重要的概念,你必须了解的非常清楚。
价格:免费链接:https://www.kaggle.com/learn/intro-to-machine-learning
中级机器学习
这是对前面的补充,但是在这里,你将第一次使用分类变量,并处理数据中的空字段。价格:免费链接:https://www.kaggle.com/learn/intermediate-machine-learning
﹀
﹀
﹀
应该清楚的是,这5个微课程不是线性过程,你可能必须在它们之间反反复复才可以记住这些概念。当你在Pandas上工作时,你可能必须回到Python课程以记住你学到的一些知识,或者转到pandas文档以了解在“机器学习入门”课程中看到的新功能。所有这一切都很好,真正的学习就是这样发生的。现在,如果你意识到前5门课程将为你提供进行探索性数据分析(exploratory data analysis,EDA)和创建基础模型(以后你将可以对其进行改进)的必要技能,因此,现在是开始简单的Kaggle竞赛并将你学到的知识付诸实践的最佳时机。
2Kaggle竞赛
泰坦尼克号
https://www.kaggle.com/c/titanic
房价
在本竞赛中,你将应用回归模型并了解诸如RMSE之类的相关指标。
https://www.kaggle.com/c/home-data-for-ml-course
﹀
﹀
﹀
至此,你已经具有丰富的实践经验,并且会觉得自己可以解决很多问题,但很有可能是你不完全了解所使用的每种分类和回归算法背后的情况。因此,这是我们必须学习所学知识的基础的原因。3可以参考的书籍和课程许多课程都是从这里开始的,但是至少我以前做过一些实践性的工作后,我才能更好地吸收这些信息。
《数据科学从零开始(Data Science from Scratch)》此时,我们将暂时将自己与pandas,scikit-learn和其他Python库分开,以务实的方式了解这些算法“背后”的知识。
在线课程:吴恩达《机器学习》在这里,我们将看到许多我们已经学到的东西,但是我们将观看该领域一位引领者的解释,他的方法将更加数学化,因此这将是深入理解我们模型的绝佳方法。
《统计学习的要素(The elements of Statisitcal Learning )》繁重的数学部分现在才开始。
在线课程:吴恩达《深度学习》此时,你可能已经读到过深度学习和使用过某些深度学习模型。但是在这里,我们将学习神经网络的基础,它们是如何实现和应用现有的不同体系结构的。
·END·
资讯丨《产业经济评论》关于“数字经济与人工智能专题“征文启事(文末有福利)
软件应用丨Python办公自动化:批量合并PDF,拿来就用
统计计量丨怎么写好计量经济学实证分析论文?
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
出处:大数据文摘
推荐:杨奇明
欢迎扫描👇二维码添加关注